一句话介绍Bitahub：

这是一个拥有1000张GPU卡、为用户提供Linux程序排队执行的集群计算系统，后端使用Docker做虚拟化，擅长机器学习算法训练。

可以使用的计算资源类型：

卡类型	GPU	CPU核心数量	内存（GB）	价格（算力/小时）
GTX1080ti	用户选择，1~8，记其为X	X * 4	X * 16GB	X * 0.4
GTXTitanXp	用户选择，1~8，记其为X	X * 4	X * 16GB	X * 0.45
TeslaV100	用户选择，1~8，记其为X	X * 4	X * 40GB	X * 0.9
RTX3090	用户选择，1~8，记其为X	X * 6	X * 40GB	X * 1.1
无GPU_1	0	X	X * 4GB	0.02
无GPU_2	0	X(≥16)	X * 14GB	0.02

说明：（1）举例，申请2张RTX3090，将配套获得12个CPU计算核心和80GB的内存；（2）1算力=1元；（3）1080ti、titanxp、v100、无GPU_1服务器的CPU型号为Intel 5118；3090服务器的CPU型号为Intel 5218和Intel 5320；无GPU_2服务器的CPU型号为Intel 6330。

在BitaHub进行算法训练，需要：

上传数据集（如果使用公开数据集，则跳过）；
上传模型（可选）；
创建项目，并选择数据集，上传代码文件；
运行任务，设置运行参数；
查看运行结果；

这里先解释以上四个步骤中涉及的概念，具体的操作演练，会在第一个项目这个小节演示。

1. 数据集

平台提供了一些常用的科研数据集，可直接使用，称这部分数据集为公开数据集。

进入系统后，点击数据集浏览。

支持用户维护私有数据集，小于500M的数据集，可在网页端操作。更切确地说，网页端一次只能传500M，也可以多次传，但是，如果数据集较大，强烈推荐使用其他方式上传，见上传数据集。

2. 模型

类似于数据集，BitaHub平台还有公开和私有的模型，进入系统后，点击模型可浏览公开模型。

同样有一次上传500M的限制。超额应对方法同数据集。

模型与数据集的异同：从程序使用的角度，他们都是以文件夹进行组织的一系列文件；在存储配额上，模型则小得多，建议只在必要时存放训练完成的模型。

3. 项目

在BitaHub中，项目是一个虚拟单位，用于将算法代码、关联的数据集/模型、运行的软件环境和配置组织起来。

创建项目时，可以选择需要的数据集或模型，并将相关的代码文件上传到项目中。

4. 任务

项目的某次训练，我们称之为一次任务，一个项目可以包含多个任务。

任务的运行，需要配置运行参数，比如GPU类型、GPU个数、启动命令等。

任务提交后会进入等待状态，分配到资源后变为运行中，结束后变为成功或失败，过程中停止则变为停止。

5. 运行结果

某次任务运行过程中，系统会收集日志和任务输出，可以在任务详情页查看。

基本概念

1. 数据集

2. 模型

3. 项目

4. 任务

5. 运行结果

results matching ""

No results matching ""